AI这场仗,蚂蚁决定这么打
5月27日下午16点多,接任蚂蚁集团CEO仅87天的韩歆毅,穿着黄色短袖来到杭州蚂蚁A空间正进行的“蚂蚁黑客松”比赛,并坐在前排台阶上仔细聆听。今年3月,获清华大学经济学硕士学位的韩歆毅升任蚂蚁集团CEO。
5月27日下午16点多,接任蚂蚁集团CEO仅87天的韩歆毅,穿着黄色短袖来到杭州蚂蚁A空间正进行的“蚂蚁黑客松”比赛,并坐在前排台阶上仔细聆听。今年3月,获清华大学经济学硕士学位的韩歆毅升任蚂蚁集团CEO。
即使在中国之外,模型构建者也越来越多地转向混合专家 (MoE) 架构,并辅以新兴的压缩技术,以降低部署大语言模型 (LLMs) 时所需的计算资源。自从 ChatGPT 引发生成式 AI 热潮近三年以来,人们终于开始考虑这些模型运行成本的问题。
5月27日,大模型架构和AI应用的研发公司元始智能预告其下一代模型架构RWKV-8“Heron”即将发布,并率先公开该架构中的核心创新技术之一——DeepEmbed。
推理 moe heron parallelism beyer 2025-05-27 19:36 8
DeepSeek-V3/R1 凭借 61 层神经网络、58 层 MoE 架构及 14906 个专家,在高效推理与经济性上实现突破。其 MLA 机制有效压缩键值缓存,降低内存占用,多 Token 预测等技术更是大幅提升数据效率与训练速度,正推动大模型向更高效、智
日前,鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案,开源发布多样化算力集群软件开源社区openFu
最近,Epoch AI的newsletter上发布了一个客座研究《算法能多快提升能力?》探讨了AI能力提升的速度,特别是关于“软件智能爆炸”的可能性。其核心问题是:AI算法的重大突破,是否都必须依赖海量算力? 关键在于“计算依赖型”算法研究将AI算法进步分为两
智能 算法 transformer moe mla 2025-05-25 21:35 10
5月23日,以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案,开源发布
阿里巴巴发布了截至2025年3月31日的全年及第一季度财务报表。数据显示,2025财年第一季度,公司总收入达到2364.54亿元,同比提升7%。经营利润达到284.65亿元,较去年同期增长了93%。归属于普通股股东的净利润为123.82亿元,增长幅度达279%
5月23日,鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。
5月23日,以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。
5月23日,以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案,开源发布
5月23日,以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案,开源发布
2025年5月23日,以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案
2025年5月23日,在鲲鹏昇腾开发者大会2025期间,昇腾AI开发者峰会在北京正式召开。会上,华为昇腾计算业务总裁张迪煊发表了《一起昇腾,共绽光芒》的演讲。他表示,昇腾打造了业界最大规模的昇腾384超节点,同时发布CATLASS算子模板库、MindIE Mo
以“心怀挚爱,共绽光芒”为主题的鲲鹏昇腾开发者大会2025(KADC2025)在北京中关村国际创新中心成功举办。大会现场发布一系列新技术、新工具和新平台,使能伙伴和开发者高效开发,持续创新。面向通用计算领域,鲲鹏正式推出鲲鹏AI+解决方案,开源发布多样化算力集
点击上方公众号 “ 摄影生活汇” → 点击右上角 “...” → 点选 “设为星标 ★ ” 摄影生活汇加上星标,这样您就可以继续免费收到文章了。文章末尾有更多集锦可以观看!
然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。
从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构,到DeepSeek V3/R1在2025年春节一夜爆火,超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。
从2017年Google提出Transformer——这一人工智能中最常用的神经网络架构,到DeepSeek V3/R1在2025年春节一夜爆火,超大规模MoE架构大模型的重点逐渐从训练开发转向推理支撑的应用落地。
然而主流的MoE架构大模型,却苦于其结构上的“先天不足”:巨大的硬件成本与多重拖累效率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。